DSAEval: Evaluación de agentes de ciencia de datos en problemas reales
Descubre DSAEval, benchmark con 641 problemas reales que evalúa agentes de IA. Resultados: Claude-Sonnet-4.5 lidera en rendimiento.
Descubre DSAEval, benchmark con 641 problemas reales que evalúa agentes de IA. Resultados: Claude-Sonnet-4.5 lidera en rendimiento.
Analizamos la relación entre información visual y comportamiento de conducción en modelos VLA mediante perturbaciones controladas. Implicaciones para sistemas más seguros.